《python数据爬取 技术与实战手册》

您所在的位置:网站首页 python coding:utf-8 《python数据爬取 技术与实战手册》

《python数据爬取 技术与实战手册》

#《python数据爬取 技术与实战手册》| 来源: 网络整理| 查看: 265

1. HTML

HTML文件基本构成

//声明为html5文档 //语言属性为英文 //是所有头部元素的容器 //声明编码方式为 UTF-8 //页面标题 // 结束 //html的主题内容 //标题 从到由大到小

//段落 属性

HTML标签可以在开始标签中添加属性,为HTML标签提供一些附加信息 比如说

//背景颜色 //对齐方式

//id属性是标签在网页的唯一标识

有一些在网页中经常看到的元素,比如超链接,图像,表格,列表,表单等

1.超链接

一般用包含href属性的标签创建超链接,标签一般包含三个属性,

存放要跳转到的目标网址 决定点开链接后,目标网页在何处出现,默认为"_self" Baidu Baidu Baidu //新标签页 Baidu //当前页面 Baidu //父窗口? 2.图像

标签为 ,为空标签,即只有属性,没有闭合标签 一般有两个属性 源地址(src)和替代文件(alt)

alt属性的作用是在src无法加载时显示替代文本,有利于用户在网络不畅的情况下了解图片内容

3.表格

标签,首先用 分行 (table row),再用 分格(table date)

1 2 3 4 效果 4.列表

分为两类,有序列表和无序列表 ,其中包含 (list item)

无序列表 (unordered list) 123 456 效果 有序列表 (ordered list) 123 456 效果 5.表单

一般用来做输入框,表单元素最重要的元素是,也是一个没有结束标签的空标签,主要用于收集用户输入

re库

python中正则表达式功能都集成在re模块中

match()和search() match() 必须从头开始匹配 search() 全部 若匹配成功,返回一个对象,否则null,该对象有两个方法: group() groups() 若正则表达式中无分组,group()返回匹配结果,groups ()返回空元组 若正则表达式中有分组,group()和group(0)返回整个匹配结果,group(n)返回第n个分组的匹配结果,groups()返回元组,元素为每一组的匹配结果

findall() : 返回列表包含所有匹配的子串,如果包含分组,则只返回分组的那一部分,如果有多个分组,以列表嵌套元组返回 split() : 返回列表,表示字符串被某字符分解 sub() : sun(a,b,c) 用b替换c中的a, 或者

import re r = 'a' r = re.compile(r) a = ' a bcdefg' print(r.sub('s', a))

这两种方法都是返回替换后的字符串,字符串本身不变 compile() : 将正则表达式字符串预编译,在数据较大情况下可加快速度



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3